通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
子痫前期是孕产妇和胎儿发病率和死亡率的主要原因。目前,先兆子痫的唯一明确治疗方法是胎盘的递送,这对于疾病的发病机理至关重要。已经广泛地进行了鉴定出差异表达的基因(DEGS),已经进行了广泛的先兆子痫对人胎盘的转录分析。使用无偏见的测定法确定了DEG,但是,在实验上研究DEG的决策受到许多因素的偏见,导致许多DEGS仍未被评估。一组与疾病在实验上相关的DEG,但与文献中的疾病尚无相关性,被称为无知组。先兆子痫具有广泛的科学文献,大量的DEG数据库,只有一种确定的治疗方法。促进基于知识的分析的工具能够将许多来源的不同数据结合起来,以提出基本的行动机制,可能是支持发现并提高我们对这种疾病的理解的宝贵资源。在这项工作中,我们证明了如何使用生物医学知识图(KG)来识别新型的先兆子痫分子机制。现有的开源生物医学资源和公开可用的高通量转录分析数据用于识别和注释当前未经资助的先兆子痫相关的DEG的功能。使用文本挖掘方法从PubMed摘要中鉴定出与先兆子痫相关的基因。文本媒介和荟萃分析衍生的列表的相对补体被确定为未经投票的前启示性脱位相关的DEG(n = 445),即先前的无知组。使用KG研究相关的DEG,揭示了53种新型临床相关和生物学作用的机械关联。
translated by 谷歌翻译
Recent object detection models for infrared (IR) imagery are based upon deep neural networks (DNNs) and require large amounts of labeled training imagery. However, publicly-available datasets that can be used for such training are limited in their size and diversity. To address this problem, we explore cross-modal style transfer (CMST) to leverage large and diverse color imagery datasets so that they can be used to train DNN-based IR image based object detectors. We evaluate six contemporary stylization methods on four publicly-available IR datasets - the first comparison of its kind - and find that CMST is highly effective for DNN-based detectors. Surprisingly, we find that existing data-driven methods are outperformed by a simple grayscale stylization (an average of the color channels). Our analysis reveals that existing data-driven methods are either too simplistic or introduce significant artifacts into the imagery. To overcome these limitations, we propose meta-learning style transfer (MLST), which learns a stylization by composing and tuning well-behaved analytic functions. We find that MLST leads to more complex stylizations without introducing significant image artifacts and achieves the best overall detector performance on our benchmark datasets.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
近年来,合成(或模拟)数据用于培训机器学习模型已迅速增长。通常,合成数据可以比其现实世界中的对应物更快,更便宜。但是,使用合成图像的一个挑战是场景设计:例如,内容及其特征和空间布置的选择。为了有效,该设计不仅必须现实,而且适合目标域,而目标域(通过假设)是未标记的。在这项工作中,我们提出了一种方法,可以自动根据未标记的现实世界图像选择合成图像的设计。我们的方法被称为神经 - 异位元模拟(NAM),建立在开创性的元模拟方法上。与当前的最新方法相反,我们的方法可以在离线后进行预训练,然后为新目标图像提供快速的设计推断。使用合成和现实世界中的问题,我们表明,NAMS不符合符合内域和室外目标成像的合成设计,并且具有NAMS设计的图像的训练分割模型与NA \ \ na \'相比,结果均优异。 IVE随机设计和最先进的元模拟方法。
translated by 谷歌翻译
多代理增强学习实验和开源培训环境通常受到限制,支撑数十个或有时甚至多达数百种相互作用的代理。在本文中,我们证明了Vogue的使用,Vogue是一个基于高性能代理的模型(ABM)框架。Vogue是一个多代理培训环境,为成千上万的互动代理提供了支持,同时通过在GPU上运行环境和增强学习(RL)代理来维持高训练吞吐量。在此规模的高性能多机构环境有可能使可靠和灵活的策略学习在复杂系统的ABM和模拟中使用。我们通过两个新开发的大型多代理培训环境展示了培训表现。此外,我们表明这些环境可以在数分钟和数小时的时间范围内训练共享的RL政策。
translated by 谷歌翻译
队列研究越来越多地使用加速度计进行体育活动和久坐行为估计。这些设备往往比自我报告易于错误,可以全天捕获活动,并且是经济的。但是,在自由生活的情况下和受试者对象变化下,基于髋关节wor的数据估算久坐行为的先前方法通常是无效的或次优的。在本文中,我们提出了一个本地马尔可夫切换模型,该模型考虑了这种情况,并引入了一种姿势分类和久坐行为分析的一般程序,该程序自然适合该模型。我们的方法在时间序列中具有更改点检测方法,也是一个两个阶段分类步骤,将数据标记为3类(坐着,站立,步进)。通过严格的训练测试范例,我们表明我们的方法达到了80%的精度。此外,我们的方法是强大的,易于解释。
translated by 谷歌翻译
深度学习(DL)逆技术增加了人工电磁材料(AEM)设计的速度,提高了所得装置的质量。许多DL逆技术在多个AEM设计任务中成功地成功,但要比较,对比度和评估各种技术,澄清逆问题的潜在弊端是至关重要的。在这里,我们审查最先进的方法,并对深度学习逆方法进行全面调查,对AEM设计进行深度学习逆方法和可逆和有条件可逆的神经网络。我们可以轻松访问和快速可实现的AEM设计基准,该基准提供了一种有效地确定最适合解决不同设计挑战的DL技术的方法。我们的方法是通过对重复模拟的限制和易于集成度量的限制,我们提出的是任何AEM设计问题的相对弊端。我们表明,由于问题变得越来越弊,无论模拟约束如何,带有边界损耗(NA)的神经伴随都会产生更好的解决方案。在简单的AEM设计任务中,当模拟有限时,直接神经网络(NN)更好,而混合密度网络(MDN)和条件变化自动编码器(VAE)预测的几何形状可以通过持续的采样和重新模拟来改进。
translated by 谷歌翻译
神经网络的越来越大的规模及其越来越多的应用空间对更高的能量和记忆有效的人工智能特定硬件产生了需求。 venues为了缓解主要问题,von neumann瓶颈,包括内存和近记忆架构,以及算法方法。在这里,我们利用磁隧道结(MTJ)的低功耗和固有的二进制操作来展示基于MTJ的无源阵列的神经网络硬件推断。通常,由于设备到装置的变化,写入误差,寄生电阻和非前沿,在性能下将训练的网络模型转移到推动的硬件。为了量化这些硬件现实的效果,我们将300个唯一重量矩阵解决方案的23个唯一的重量矩阵解决方案进行分类,以分类葡萄酒数据集,用于分类准确性和写真保真度。尽管设备不完美,我们可以实现高达95.3%的软件等效精度,并在15 x 15 MTJ阵列中正确调整具有一系列设备尺寸的阵列。此调谐过程的成功表明,需要新的指标来表征混合信号硬件中再现的网络的性能和质量。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译